智能论文笔记

Contrastive learning-based pretraining improves representation and transferability of diabetic retinopathy classification models

Minhaj Nur Alam , Rikiya Yamashita , Vignav Ramesh , Tejas Prabhune , Jennifer I. Lim , R. V. P. Chan , Joelle Hallak , Theodore Leng , Daniel Rubin

分类：计算机视觉

2022-08-24

基于自我监督的基于学习的预科可以使用小标签的数据集开发可靠和广义的深度学习模型，从而减轻了标签生成的负担。本文旨在评估基于CL的预处理对可转介的性能与非转介糖尿病性视网膜病（DR）分类的影响。我们已经开发了一个基于CL的框架，具有神经风格转移（NST）增强，以生成具有更好表示和初始化的模型，以检测颜色底面图像中的DR。我们将CL预估计的模型性能与用成像网权重预测的两个最先进的基线模型进行了比较。我们通过减少标记的训练数据（降至10％）进一步研究模型性能，以测试使用小标签数据集训练模型的鲁棒性。该模型在EYEPACS数据集上进行了培训和验证，并根据芝加哥伊利诺伊大学（UIC）的临床数据进行了独立测试。与基线模型相比，我们的CL预处理的基础网模型具有更高的AUC（CI）值（0.91（0.898至0.930），在UIC数据上为0.80（0.783至0.820）和0.83（0.783至0.820）（0.801至0.853）。在10％标记的培训数据时，在UIC数据集上测试时，基线模型中的FoldusNet AUC为0.81（0.78至0.84），比0.58（0.56至0.64）和0.63（0.56至0.64）和0.63（0.60至0.66）。基于CL的NST预处理可显着提高DL分类性能，帮助模型良好（可从Eyepacs转移到UIC数据），并允许使用小的带注释的数据集进行培训，从而减少临床医生的地面真相注释负担。

translated by 谷歌翻译

Hibikino-Musashi@Home 2018 Team Description Paper

Yutaro Ishida , Sansei Hori , Yuichiro Tanaka , Yuma Yoshimoto , Kouhei Hashimoto , Gouki Iwamoto , Yoshiya Aratani , Kenya Yamashita , Shinya Ishimoto , Kyosuke Hitaka

分类：机器人

2022-11-09

Our team, Hibikino-Musashi@Home (the shortened name is HMA), was founded in 2010. It is based in the Kitakyushu Science and Research Park, Japan. We have participated in the RoboCup@Home Japan open competition open platform league every year since 2010. Moreover, we participated in the RoboCup 2017 Nagoya as open platform league and domestic standard platform league teams. Currently, the Hibikino-Musashi@Home team has 20 members from seven different laboratories based in the Kyushu Institute of Technology. In this paper, we introduce the activities of our team and the technologies.

translated by 谷歌翻译

Data Augmentation by Selecting Mixed Classes Considering Distance Between Classes

Shungo Fujii , Yasunori Ishii , Kazuki Kozuka , Tsubasa Hirakawa , Takayoshi Yamashita , Hironobu Fujiyoshi

分类：计算机视觉 | (统计)机器学习

2022-09-12

数据增强是使用深度学习来提高对象识别的识别精度的重要技术。从多个数据集中产生混合数据（例如混音）的方法可以获取未包含在培训数据中的新多样性，从而有助于改善准确性。但是，由于在整个训练过程中选择了选择用于混合的数据，因此在某些情况下未选择适当的类或数据。在这项研究中，我们提出了一种数据增强方法，该方法根据班级概率来计算类之间的距离，并可以从合适的类中选择数据以在培训过程中混合。根据每个班级的训练趋势，对混合数据进行动态调整，以促进培训。所提出的方法与常规方法结合使用，以生成混合数据。评估实验表明，提出的方法改善了对一般和长尾图像识别数据集的识别性能。

translated by 谷歌翻译

Taking a Language Detour: How International Migrants Speaking a Minority Language Seek COVID-Related Information in Their Host Countries

Ge Gao , Jian Zheng , Eun Kyoung Choe , Naomi Yamashita

分类：自然语言处理

2022-09-07

在公共危机时期，寻求信息对于人们的自我保健和福祉至关重要。广泛的研究调查了经验理解和技术解决方案，以促进受影响地区的家庭公民寻求信息。但是，建立有限的知识是为了支持需要在其东道国发生危机的国际移民。当前的论文对居住在日本和美国（n = 14）的两名中国移民（n = 14）进行了访谈研究。参与者反思了他们在共同大流行期间寻求经验的信息。反思补充了两周的自我追踪，参与者保持了相关信息寻求实践的记录。我们的数据表明，参与者经常绕开语言绕道，或访问普通话资源以获取有关其东道国疫情爆发的信息。他们还进行了战略性利用普通话信息，以进行选择性阅读，交叉检查以及对日语或英语的共同信息的上下文化解释。尽管这种做法增强了参与者对共同相关信息收集和感官的有效性，但他们有时会通过有时认识的方式使人们处于不利地位。此外，参与者缺乏对审查以移民为导向的信息的认识或偏爱，尽管该信息可用，这些信息是由东道国公共当局发布的。在这些发现的基础上，我们讨论了改善国际移民在非本地语言和文化环境中寻求共同相关信息的解决方案。我们主张包容性危机基础设施，这些基础设施将吸引以当地语言流利程度，信息素养和利用公共服务的经验的不同水平的人们。

translated by 谷歌翻译

Few-shot Adaptive Object Detection with Cross-Domain CutMix

Yuzuru Nakamura , Yasunori Ishii , Yuki Maruyama , Takayoshi Yamashita

分类：计算机视觉 | (统计)机器学习

2022-08-31

在对象检测中，数据量和成本是一种权衡，在特定领域中收集大量数据是劳动密集型的。因此，现有的大规模数据集用于预训练。但是，当目标域与源域显着不同时，常规传输学习和域的适应性不能弥合域间隙。我们提出了一种数据合成方法，可以解决大域间隙问题。在此方法中，目标图像的一部分被粘贴到源图像上，并通过利用对象边界框的信息来对齐粘贴区域的位置。此外，我们介绍对抗性学习，以区分原始区域或粘贴区域。所提出的方法在大量源图像和一些目标域图像上训练。在非常不同的域问题设置中，所提出的方法比常规方法获得更高的精度，其中RGB图像是源域，而热红外图像是目标域。同样，在模拟图像与真实图像的情况下，提出的方法达到了更高的精度。

translated by 谷歌翻译

HTML版本

A Stochastic Variance Reduced Gradient using Barzilai-Borwein Techniques as Second Order Information

Hardik Tankaria , Nobuo Yamashita

分类：机器学习 | (统计)机器学习

2022-08-23

在本文中，我们考虑通过结合目标函数的曲率信息来改善随机方差减少梯度（SVRG）方法。我们建议通过将其合并到SVRG中，以使用计算有效的Barzilai-Borwein（BB）方法来降低随机梯度的方差。我们还将BB步骤大小合并为其变体。我们证明其线性收敛定理不仅适用于所提出的方法，还适用于SVRG的其他现有变体，并使用二阶信息。我们在基准数据集上进行了数值实验，并表明具有恒定步长的提出方法的性能优于现有方差减少的方法，这些方法对于某些测试问题。

translated by 谷歌翻译

Visual Explanation of Deep Q-Network for Robot Navigation by Fine-tuning Attention Branch

Yuya Maruyama , Hiroshi Fukui , Tsubasa Hirakawa , Takayoshi Yamashita , Hironobu Fujiyoshi , Komei Sugiura

分类：机器人

2022-08-18

机器人进行深入增强学习（RL）的导航，在复杂的环境下实现了更高的性能，并且表现良好。同时，对深度RL模型的决策的解释成为更多自主机器人安全性和可靠性的关键问题。在本文中，我们提出了一种基于深入RL模型的注意力分支的视觉解释方法。我们将注意力分支与预先训练的深度RL模型联系起来，并通过以监督的学习方式使用受过训练的深度RL模型作为正确标签来训练注意力分支。由于注意力分支经过训练以输出与深RL模型相同的结果，因此获得的注意图与具有更高可解释性的代理作用相对应。机器人导航任务的实验结果表明，所提出的方法可以生成可解释的注意图以进行视觉解释。

translated by 谷歌翻译

Learning Pseudo Front Depth for 2D Forward-Looking Sonar-based Multi-view Stereo

Yusheng Wang , Yonghoon Ji , Hiroshi Tsuchiya , Hajime Asama , Atsushi Yamashita

分类：计算机视觉 | 机器人

2022-07-30

从2D前看声纳中检索声学图像中缺少的维度信息是水下机器人技术领域的一个众所周知的问题。有一些尝试从单个图像中检索3D信息的作品，该信息允许机器人通过飞行运动生成3D地图。但是，由于独特的图像配方原理，估计来自单个图像的3D信息面临严重的歧义问题。多视图立体声的经典方法可以避免歧义问题，但可能需要大量的观点来生成准确的模型。在这项工作中，我们提出了一种基于学习的新型多视角立体方法来估计3D信息。为了更好地利用来自多个帧的信息，提出了一种高程平面扫平方法来生成深度 - 齐路的成本量。正则化后的体积可以视为目标的概率体积表示。我们使用伪前深度来代表3D信息，而不是在高程角度上进行回归，而是可以避免声学成像中的2d-3d问题。只有两个或三个图像可以生成高准确的结果。生成合成数据集以模拟各种水下目标。我们还在大型水箱中构建了第一个具有准确地面真相的真实数据集。实验结果证明了与其他最新方法相比，我们方法的优势。

translated by 谷歌翻译

Efficient Video Deblurring Guided by Motion Magnitude

Yusheng Wang , Yunfan Lu , Ye Gao , Lin Wang , Zhihang Zhong , Yinqiang Zheng , Atsushi Yamashita

分类：计算机视觉

2022-07-27

由于空间和时间变化的模糊，视频脱毛是一个高度不足的问题。视频脱毛的直观方法包括两个步骤：a）检测当前框架中的模糊区域； b）利用来自相邻帧中清晰区域的信息，以使当前框架脱毛。为了实现这一过程，我们的想法是检测每个帧的像素模糊级别，并将其与视频Deblurring结合使用。为此，我们提出了一个新颖的框架，该框架利用了先验运动级（MMP）作为有效的深视频脱张的指南。具体而言，由于在曝光时间内沿其轨迹的像素运动与运动模糊水平呈正相关，因此我们首先使用高频尖锐框架的光流量的平均幅度来生成合成模糊框架及其相应的像素 - 像素 - 明智的运动幅度地图。然后，我们构建一个数据集，包括模糊框架和MMP对。然后，由紧凑的CNN通过回归来学习MMP。 MMP包括空间和时间模糊级别的信息，可以将其进一步集成到视频脱毛的有效复发性神经网络（RNN）中。我们进行密集的实验，以验证公共数据集中提出的方法的有效性。

translated by 谷歌翻译

nLMVS-Net: Deep Non-Lambertian Multi-View Stereo

Kohei Yamashita , Yuto Enyo , Shohei Nobuhara , Ko Nishino

分类：计算机视觉

2022-07-25

我们介绍了一种新型的多视图立体声（MVS）方法，该方法不仅可以同时恢复每个像素深度，而且还可以恢复表面正常状态，以及在已知但自然照明下捕获的无纹理，复杂的非斜面表面的反射。我们的关键想法是将MVS作为端到端的可学习网络，我们称为NLMVS-NET，该网络无缝地集成了放射线线索，以利用表面正常状态作为视图的表面特征，以实现学习成本量的构建和过滤。它首先通过新颖的形状从阴影网络估算出每个视图的像素概率密度。然后，这些每个像素表面正常密度和输入多视图图像将输入到一个新颖的成本量滤波网络中，该网络学会恢复每个像素深度和表面正常。通过与几何重建交替进行交替估计反射率。对新建立的合成和现实世界数据集进行了广泛的定量评估表明，NLMVS-NET可以稳健而准确地恢复自然设置中复杂物体的形状和反射率。

translated by 谷歌翻译